17 research outputs found

    A proposal for a shallow ontologization of WordNet

    Get PDF
    En este artículo se presenta el trabajo que se está realizando para la llamada ontologización superficial de WordNet, una estructura orientada a superar muchos de los problemas estructurales de la popular base de conocimiento léxico. El resultado esperado es un recurso multilingüe más apropiado que los ahora existentes para el procesamiento semántico a gran escala.This paper presents the work carried out towards the so-called shallow ontologization of WordNet, which is argued to be a way to overcome most of the many structural problems of the widely used lexical knowledge base. The result shall be a multilingual resource more suitable for large-scale semantic processing

    La noción de tradautomaticidad en la traducción automática

    Get PDF
    En este artículo presentamos la noción de tradautomaticidad y explicamos su relevancia en la traducción automática. La tradautomaticidad es el 'aroma de la traducción automática; esto es, los fenómenos lingüísticos que provocan que un texto parezca haber sido traducido por una máquina y no por un ser humano. Esta noción es relevante en la evaluación de sistemas de traducción automática pero lo es también en la corrección de traducciones, en la confirmación de usos fraudulentos, la detección de spam, o la búsqueda de información. El artículo explica el trabajo experimental que realizamos para elaborar una tipología de tradautomaticidad. Analizamos también la apreciación de estos fenómenos por parte de un extenso grupo de informantes, con diferentes niveles de estudios, edades, etc. El experimento nos ha dado datos sobre la influencia de los pares de lenguas y el método del sistema en la generación de ejemplos de tradautomaticidad. Finalmente, hemos hecho unas recomendaciones metodológicas para detectar ejemplos de tradautomaticidad de la forma más objetiva posible.In this article we explain the notion of machine translationness and its relevance in machine translation. Machine translationness refers to the linguistic phenomena that reveals a text to be translated by a machine. This notion is relevant for machine translation evaluation, post-editing, confirmation of dishonest use of machine translation engines, spam detection and information search. The article explains the empirical study we performed in order to elaborate a machine translationness typology. We also analyse the perception of machine translationness types by a large group of informants with varied learning levels, ages, etc. The experiment provided us with data about the influence of language-pairs and the methodology of the translation engine in machine-translationness generation. Finally, we suggest a few methodological hints about how machine translationnes can be detected automatically and objectively

    Bilingual newsgroups in Catalonia: a challenge for machine translation

    Get PDF
    This paper presents a linguistic analysis of a corpus of messages written in Catalan and Spanish, which come from several informal newsgroups on the Universitat Oberta de Catalunya (Open University of Catalonia; henceforth, UOC) Virtual Campus. The surrounding environment is one of extensive bilingualism and contact between Spanish and Catalan. The study was carried out as part of the INTERLINGUA project conducted by the UOC's Internet Interdisciplinary Institute (IN3). Its main goal is to ascertain the linguistic characteristics of the e-mail register in the newsgroups in order to assess their implications for the creation of an online machine translation environment. The results shed empirical light on the relevance of characteristics of the e-mail register, the impact of language contact and interference, and their implications for the use of machine translation for CMC data in order to facilitate cross-linguistic communication on the Internet

    Tecnologies de la traducció per a la gestió de la doble oferta docent en català i castellà a la UOC

    Get PDF
    La Universitat Oberta de Catalunya (UOC) és una universitat plenament virtual que actualment, deu anys després de ser fundada, l'any 1994, ofereix un total de 17 titulacions homologades en català. L'any 2000 la UOC va començar a fer docència universitària també en castellà, amb la inauguració del campus iberoamericà, el qual aplega actualment uns cinc mil estudiants distribuïts en 14 titulacions i unes 400 aules i assignatures

    La tradautomaticidad: un concepto aplicado a la evaluación de sistemas de traducción automática

    Get PDF
    En este artículo, presentamos el concepto de tradautomaticidad y su aplicación a la evaluación de sistemas de traducción automática (TA). La tradautomaticidad se refiere al output generado por un traductor automático que el receptor no atribuiría a un traductor humano. La tradautomaticidad tiene una relación directa con la calidad de la traducción: cuantos más ejemplos de tradautomaticidad existan peor es la traducción. Para demostrar la utilidad de la detección de estos ejemplos presentamos un método de evaluación de coste bajo que consiste en identificar y cuantificar ejemplos de tradautomaticidad mediante búsquedas por Internet. Además, los ejemplos detectados pueden aprovecharse para otros usos, por ejemplo, la postedición automática de documentos traducidos automáticamente.In this article we introduce the concept of machine translationness and its use for MT evaluations. Machine translationness is the output generated by an MT system which is unlikely to be attributed to a human translator. Machine translationness is closely related to the translation quality. The more instances of machine translationness the worse is the translation. In order to show the use of these instances we explain a cheap evaluation method that consists in identifying and quantifying instances of machine translationness by performing Internet searches. Besides, the instances detected can be reused, for example, in the automatic postedition of machine translated documents

    Creació automàtica de diccionaris multilingües especialitzats en noves àrees temàtiques

    No full text
    Peer reviewedEn aquest article presentem una eina que genera automàticament diccionaris d'equivalències multilingües especialitzats en noves àrees temàtiques. L'eina explota recursos presents a la xarxa per a cercar les equivalències i verificar-ne la idoneïtat. Aquests recursos són, d'una banda, les viquipèdies, que es poden baixar i processar de manera lliure, i, de l'altra, els materials que institucions terminològiques de referència deixen disponibles. Aquesta eina pot ser útil per als docents que elaboren materials didàctics i per als investigadors que preparen tesis, articles o manuals de referència. També pot ser útil per als traductors i per als terminòlegs que s'ocupen de la normalització terminològica d'una nova àrea temàtica en una llengua determinada, els quals estan interessats a conèixer els conceptes que encara no tenen una denominació normalitzada.This article presents a tool to automatically generate specialised dictionaries of multilingual equivalents in new subject areas. The tool uses resources that are available on the web to search for equivalents and verify their reliability. These resources are, on the one hand, the Wikipedias, which can be freely downloaded and processed, and, on the other, the materials that terminological institutions of reference make available. This tool is of use to teachers producing teaching materials and researchers preparing theses, articles or reference manuals. It is also of use to translators and terminologists working on terminological standardisation in a new subject area in a given language, as it helps them in their work to pinpoint concepts that have yet to receive a standardised denomination.En este artículo presentamos una herramienta que genera automáticamente diccionarios de equivalencias multilingües especializados en nuevas áreas temáticas. La herramienta explota recursos presentes en la red para buscar las equivalencias y verificar su idoneidad. Estos recursos son, por una parte, las wikipedias, que se pueden descargar y procesar de forma libre, y, por otra parte, los materiales que instituciones terminológicas de referencia dejan disponibles. Esta herramienta puede ser útil para los docentes que elaboren materiales didácticos y para los investigadores que preparen tesis, artículos o manuales de referencia. También puede ser útil para los traductores y para los terminólogos que se ocupen de la normalización terminológica de una nueva área temática en una lengua determinada, los cuales están interesados en conocer los conceptos que todavía no tienen una denominación normalizada

    Machine Translationness: a Concept for Machine Translation Evaluation and Detection

    Get PDF
    La tradautomaticitat és el fenomen lingüístic que fa que les traduccions automàtiques sonin a màquina. Aquesta tesi introdueix el concepte de tradautomaticitat com un objecte de recerca i presenta un mètode d¿avaluació que consisteix en determinar si la traducció és pròpia d¿una màquina en comptes de determinar la seva semblança amb una traducció humana, com en els mètodes d¿avaluació actuals. El mètode avalua la qualitat d¿una traducció amb una mètrica, la MTS (Machine Translationness Score). Aquesta mètrica és conseqüent amb la percepció de la tradautomaticitat de la gent corrent. La MTS correlaciona bé amb les valoracions de qualitat dels avaluadors humans. A més, la nostra proposta permet realitzar avaluacions de baix cost perquè no necessiten de recursos que són cars d¿obtenir (traduccions de referència, corpus d¿entrenament, etc.). El criteri de tradautomaticitat té aplicacions que van més enllà de l¿avaluació de traduccions automàtiques (detecció de plagi, detecció de publicacions no supervisades a Internet, etc.).La tradautomacidad es el fenómeno lingüístico que hace que las traducciones automáticas suenen a máquina. Esta tesis introduce el concepto de tradautomaticidad como un objeto de investigación y presenta un método de evaluación que consiste en determinar si la traducción es propia de una máquina en vez de determinar su parecido a una traducción humana, como en los métodos de evaluación actuales. El método evalúa la calidad de una traducción con una métrica, la MTS (Machine Translationness Score). Esta métrica es consecuente con la percepción de la tradautomaticidad de la gente corriente. La MTS correlaciona bien con las valoraciones de calidad de evaluadores humanos. Además, nuestra propuesta permite realizar evaluaciones de bajo coste porque no requieren de recursos que son caros de obtener (traducciones de referencia, corpus de entrenamiento, etc.). El criterio de tradautomaticidad tiene aplicaciones que van más allá de la evaluación de traducciones automáticas (detección de plagio, detección de publicaciones no supervisadas en Internet, etc.).Machine translationness (MTness) is the linguistic phenomena that make machine translations distinguishable from human translations. This thesis introduces MTness as a research object and presents an MT evaluation method based on determining whether the translation is machinelike instead of determining its humanlikeness as in current evaluation approaches. The method rates the MTness of a translation with a metric, the MTS (Machine Translationness Score). The MTS calculation is in accordance with the results of an experimental study on machine translation perception by common people. MTS proved to correlate well with human ratings on translation quality. Besides, our approach allows the performance of cheap evaluations since expensive resources (e.g. reference translations, training corpora) are not needed. Machine translationness ratings can be applied for other uses beyond machine translation evaluation (plagiarism and other forms of cheating, detection of unsupervised MT documents published on the Web, etc.)

    A Machine Translationness Typology for MT Evaluations

    No full text
    Abstract. In this article we present machine translationness (MTness, henceforth) as an approach for MT evaluations, in contrast to the notion of human likeness which is the basic criteria for state-of-the-art automatic evaluations. Our approach is based on the detection of phenomena that contribute to the MTness of a translation and, consequently, its poor fluency. We present here a typology of MTness based on an empirical study in which human and machine translations were Turing tested. We also discuss the types of the typology that should be focused on in MT evaluations, the subjective quality of the human likeness assumption, and the advantages of the MTness approach, in terms of time and financial costs

    A proposal for a shallow ontologization of WordNet

    Get PDF
    En este artículo se presenta el trabajo que se está realizando para la llamada ontologización superficial de WordNet, una estructura orientada a superar muchos de los problemas estructurales de la popular base de conocimiento léxico. El resultado esperado es un recurso multilingüe más apropiado que los ahora existentes para el procesamiento semántico a gran escala.This paper presents the work carried out towards the so-called shallow ontologization of WordNet, which is argued to be a way to overcome most of the many structural problems of the widely used lexical knowledge base. The result shall be a multilingual resource more suitable for large-scale semantic processing

    Análisis de los fenómenos lingüísticos de los mensajes de correo electrónico en catalán desde la perspectiva de la traducción automática

    Get PDF
    Los sistemas de traducción automática están preparados para traducir textos que son normativamente correctos. Sin embargo, en la traducción automática de mensajes de correo electrónico hay elementos ajenos a la norma que provocan errores de traducción y es necesario conocerlos si se quiere optimizar un entorno de traducción automática de mensajes de correo electrónico, como el que se diseñó para el proyecto Interlingua desarrollado por la UOC. Una tarea importante de dicho proyecto fue el análisis de los fenómenos lingüísticos no normativos de un corpus de mensajes electrónicos escritos en catalán y su impacto en la calidad de traducción al español. En este artículo presentamos este análisis. Curiosamente los errores de competencia de los emisores causan más errores de traducción que los fenómenos característicos de la comunicación por correo electrónico, como los errores de teclado, vocabulario sms, emoticonos, etc.Emails contain linguistic phenomena that deviate from standard language norms and may cause machine translation errors. In order to design an email translation environment for the Interlingua project developed at UOC, we classified deviations from the standard in a corpus of emails in Catalan and analysed their impact on the machine translation quality in Spanish. Here we present this analysis. Curiously, most translation errors are caused by the lack of linguistic competence of the sender. The impact of characteristic email phenomena (smileys, performance errors, sms vocabulary, etc.) is not so strong.Este trabajo ha sido parcialmente financiado por el MCYT de España mediante el proyecto AMEDIDA (Programa PROFIT, FIT 350201-2004-6)
    corecore